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Внедрение ЦВЗ в аудиосигналы на основе 
пакетной вейвлет-декомпозиции 
и частотного маскирования 


Рассмотрен спектральный поход к построению систем с цифровыми водяными знаками для аудио- 
сигналов. Эффективность предложенной слепой схемы создания ЦВЗ основывается на использовании 
особенностей восприятия звука системой человеческого слуха и анализе влияния на спектральные 
составляющие сигнала типичных операций обработки. 


Введение 


Цифровой водяной знак (ЦВЗ) представляет собой некоторую малообъемную 
дополнительную информацию, незаметно внедряемую в сигнал и содержащую иден- 
тификатор владельца авторского права, или данной копии цифрового сигнала, или 
устройства записи, или, например, коды контроля копирования. Согласно требованиям 
Международной федерации звукозаписывающей индустрии (ТЕРТ) методы внедрения 
ЦВЗ в аудиосигналы при определенной полезной нагрузке данных (иногда таковой 
называют пропускную способность образованного стеганоканала больше, чем 20 бит 
в секунду) должны быть стойкими к типичным операциям обработки сигналов и атакам, 
таким как масштабирование во временной области (в пределах 10%), аддитивный и 
мультипликативный шумы, сжатие МРЕС-1 Гауег 3, передискретизация, перекванто- 
вание, цифро-аналоговое и аналого-цифровое преобразование. При этом величина вно- 
симых внедрением искажений ограничивается соотношением сигнал-шум ЗМВ>20АВ. 

На сегодняшний день предложено достаточно большое количество различных 
алгоритмов создания ЦВЗ для аудиосигналов. Все их можно разделить на 2 класса: 
алгоритмы с внедрением ЦВЗ во временной или в частотной области сигнала. Характер 
искажений, вносимых в аудиосигнал операциями обработки, и инвариант к ним, как 
правило, легче определить в частотной области. Это привело к активной разработке 
различных частотных методов маркировки аудиосигналов, использующих дискретное 
преобразование Фурье [1], [2], субполосное кодирование и модифицированное дис- 
кретное косинусное преобразование [3], вейвлет-преобразование [4-6]. 

В работе [7] мы проанализировали влияние на спектр аудиосигнала кодеков 
сжатия с потерями. Анализ спектрограмм набора аудиосигналов, полученного из исход- 
ного сигнала последовательным сжатием с разными битрейтами' — от максимально 
до минимально возможного для различных стандартов (МРЕС-1 Гауег 3, МРЕС-2/4, 
Ох Уог$, \УМА), показал, что области существенных изменений в спектре будут 
расширяться в направлении от высоких частот к низким. Таким образом, инвариант 
к сжатию разными алгоритмами целесообразно искать в низких частотах аудиосигналов. 


' Битрейт — количество битов информации на единицу времени. Например, в стандарте МРЕС-1 
Гауег 3 предусматривается сжатие с битрейтом от 32 до 320 кбит/с. 
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В работах [8], [9] была представлена новая схема маркировки аудиосигналов, 
стойкая к сжатию с потерями, передискретизации, низкочастотной фильтрации, адди- 
тивному и мультипликативному шуму и удовлетворяющая при этом условие ЗМВ>204В. 
Схема основана на вейвлет-декомпозиции сигнала и внедрении ЦВЗ модификацией 
определенных амплитуд низкочастотной субполосы. Недостатком, ограничивающим 
применение этой схемы, является неслепой метод декодирования ЦВЗ, использованный 
в ней. То есть для извлечения ЦВЗ необходимо наличие некоторой дополнительной 
ключевой информации, которая формируется алгоритмом внедрения. Несмотря на 
возможность весьма существенной минимизации длины ключевых данных при функ- 
ционировании стеганосистемы, сохраняется необходимость хранения и использования 
ключей, привязанных не к пользователю, а к маркированному сигналу. В данной работе 
будет очерчена альтернативная схема маркировки, декодирование ЦВЗ в которой явля- 
ется слепым. 


Неощутимость, стойкость и вместимость 
при построении систем с ЦВЗ 


Разработка эффективных систем с ЦВЗ упирается в компромисс между тремя их 
основными характеристиками — неощутимостью (ппрегсерН ПИУ), стойкостью (гоби$е$$) 
и пропускной способностью или вместимостью (сарасйу). Неощутимости ЦВЗ можно 
добиться либо внося минимальные модификации в отсчеты сигнала или частотные 
коэффициенты, либо эксплуатируя эффекты маскировки одних звуков другими. При- 
чем использование маскировки более перспективно в плане стойкости, поскольку 
небольшие модификации в большинстве случаев искажаются операциями обработки. 

Маскировка одних звуков другими проявляется как во временной области, так 
и в частотной. На эффекте временной маскировки построен, например, метод вне- 
дрения ЦВЗ эхо-кодированием [10]. Традиционно для того, чтобы использовать 
эффект частотной маскировки и рассчитать пороги маскирования, модификации ниже 
которых неощутимы человеком, частотные коэффициенты вычисляют при помощи 
быстрого преобразования Фурье (БПФ). В частности этот подход эксплуатируется в 
психоакустической модели стандарта сжатия с потерями МРЕС-1 Гауег 3 [11]. Вместе 
с тем в последние годы стали появляться новые психоакустические модели, исполь- 
зующие для анализа аудиосигнала пакетную вейвлет-декомпозицию [12], [13]. По срав- 
нению с традиционными моделями они способны обеспечить мультиразрешающий 
анализ сигнала и более точно аппроксимировать разбиение его частотного диапазона 
согласно критическим полосам слуха. Такие новые психоакустические модели во- 
стребованы как для разработки алгоритмов сжатия с потерями, так и для алгоритмов 
маркировки аудиосигналов. 

Возможно также объединение сжатия и маркировки в один процесс. В этом 
случае биты ЦВЗ внедряются в сигнал методом модуляции индекса квантования [14], 
в котором использовано два квантователя. Один квантователь применяется при внедре- 
нии нуля, второй — при внедрении единицы. Шаг квантования вычисляется на основе 
психоакустической модели, контролирующей неслышимость шума квантования. 

Метод модуляции индекса квантования является обобщением широко известного 
метода наименьшего значащего бита. Вместе с тем в отличие от первого он позво- 
ляет выполнить адаптивный подбор шага квантования и таким образом добиться 
повышения стойкости. С другой стороны, метод модуляции индекса квантования 
шумный на низкоамплитудных участках. Аналитически метод исследовался в рабо- 
тах [1], [15], где была показана его уязвимость к дальнейшим атакам. 
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При соблюдении требования неощутимости повысить стойкость можно понижая 
вместимость, т.е. внедрять биты ЦВЗ не во весь сигнал, а только в те его участки, 
которые после возможных операций обработки сохранятся точно или приблизительно в 
таком же виде, как в исходном аудио. Учитывая эффект частотной маскировки, который 
наиболее сильно проявляется внутри критических полос слуха, такими существенными 
участками целесообразно выбрать участки вокруг низкочастотных тональных маски- 
рующих компонентов, определяемых психоакустической моделью. Бит ЦВЗ будет 
закодирован целенаправленным формированием разности амплитуд левой и правой 
соседних к выбранному тону частотных составляющих. 

Неощутимость вносимых изменений базируется на наличии скрытого порога 
маскирования, инициированного данным тональным компонентом. Стойкость — на пер- 
цепционной важности тональных компонент в сигнале. Перед применением процедуры 
внедрения аудиосигнал разбивается на сегменты по несколько секунд звучания. Вмести- 
мость стеганоканала регулируется длиной сегмента и числом тех субполос в нем, в ко- 
торые будут внедряться биты ЦВЗ. 


Аппроксимация критических полос слуха деревом 


пакетной вейвлет-декомпозиции сигнала 


В психоакустике принято выделять 25 критических полос слуха (табл. 1), внутри 
которых происходит интегрирование поступившей звуковой информации и эффект 
частотной маскировки наиболее выражен. 


Таблица 1 — Разбиение слышимого диапазона частот на критические полосы 


мы Центральная Нижняя и верхняя Ширина полосы, 
5 частота, Гц частоты полосы, Гц Гц 
1 50 20-100 100 
2 150 100—200 100 
3 250 200-300 100 
4 350 300—400 100 
5 450 400—510 110 
6 570 510-630 120 
7 700 630—770 140 
8 840 770—920 150 
9 1000 920 — 1080 160 
10 1170 1080 - 1270 190 
1 1370 1270 -— 1480 210 
12 1600 1480 - 1720 240 
13 1850 1720-2000 280 
14 2150 2000 - 2320 320 
15 2500 2320-2700 380 
16 2900 2700-3150 450 
И 3400 3150 - 3700 550 
18 4000 3700 — 4400 700 
19 4800 4400 — 5300 900 
20 5800 5300 -— 6400 1100 
21 7000 6400 — 7700 1300 
22 8500 7700 — 9500 1800 
23 19500 9500 — 12000 2500 
24 13500 12000 — 15500 3500 
25 19000 155000 — 22500 7000 
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Хорошую аппроксимацию критических полос слуха можно получить построением 
согласованного с приведенными данными дерева пакетной вейвлет-декомпозиции 
сигнала. Каждому ортогональному вейвлету соответствуют его низкочастотный © и 
высокочастотный й фильтры. Применение к аудиосигналу данных фильтров с деци- 
мацией результата в соотношении два к одному разбивает сигнал на две субполосы — 
низкочастотную и высокочастотную. Каждая из субполос этими же фильтрами может 
быть разбита еще на две части. Декомпозицию можно продолжать вплоть до момента, 
когда субполосы разложения будут содержать по одному отсчету. Такой подход исполь- 
зован в алгоритмах быстрого вейвлет-преобразования и является сутью многоуровневой 
вейвлет-декомпозиции сигнала на частотные субполосы. 

Процедура расчета параметров психоакустической модели в области вейвлет-ко- 
эффициентов описана, например, в работах [12], [13]. В статье [12] для аппроксимации 
критических частотных полос предложено следующее дерево пакетной вейвлет-деком- 
позиции (рис. 1). 
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Рисунок 1 — Дерево пакетной вейвлет-декомпозиции сигнала, 
аппроксимирующее критические полосы слуха 


Здесь (рп) — нумерация узлов дерева декомпозиции, а вертикально проставлен- 
ные цифры в конечных узлах — частоты в Гц, соответствующие каждой из субполос 
разложения, т.е. первая субполоса будет содержать отсчеты с частотами от 0 до 86 Гц, 
вторая — от 86 до 172 Гц ит.д. 

Таким образом, для аппроксимации критических полос в аудиосигнале, оцифро- 
ванном с частотой дискретизации 44 кГц, используется 8 уровней пакетного вейвлет- 
разложения. В качестве базисного вейвлета, как правило, выбирают вейвлеты Добеши. 
При этом чем выше порядок выбранного вейвлета, тем более тонкую структуру сигнала 
он позволяет анализировать. Так, например, в работе [13] при построении психоакусти- 
ческой модели используется вейвлет Добеши 8 порядка. 

В целях обеспечения стойкости к атакам внедрение битов ЦВЗ должно выпол- 
няться только в первые 10 - 20 частотных субполос. 
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Использование частотного маскирования 
при внедрении битов ЦВЗ 


Рассмотрим аудиосигнал в частотной области. На рис. 2 проиллюстрирован эффект 
маскирования соседних частотных компонент сильным тоном. Согласно существующим 
исследованиям [2], если Ё(/+) — сильный тональный компонент, то в пределах частотной 


полосы с шириной, меньшей половины критической, перераспределение энергии вида 
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Рисунок 2 — Абсолютный порог слышимости и порог маскирования, возникновение 
которого инициирует чистый тон с частотой 1 кГц 


С другой стороны, результаты экспериментов по оценке изменения энергии 
тона Ё, = Е.) 


2 5 з 2 
‚ энергии левой и правой, соседних с тоном частот Ё, = |) и 


2 г 
Е, = |’ (Е ) ‚ а также отношения энергий ЕЁ} / Е, и Е, /Е, под влиянием типичных 


операций обработки сигнала выявили их достаточную стабильность. 
Это позволяет внедрить ЦВЗ, манипулируя разностью между левым и правым 
соседними с тональным частотными компонентами. 


Внедрение битов ЦВЗ 


Тройку частотных отсчетов Е( 1—1), Е(Ль), ЕС +)» где Ё( Лк) — сильный то- 


нальный компонент, будем называть тональным маскером. 
Для внедрения нулевого бита ЦВЗ нужно обеспечить соотношение: 


К(Е,Е,)< Ц, (1) 
а единичного: 

КЕ, Е„)> 12, (2) 
где К(Е,Е,)=|Е1-Е!|/2, Ц =(Е, -Ет)` 0, 12 =(Е, -Ет)-В, Еш =(Е+Е,)/2. 
а и В - константы, регулирующие взаимосвязь между неощутимостью и стойкостью 
внедрения. © <В, и для стойкости разница между ними должна быть как можно 


больше. Вместе с тем слишком большая разница повлечет за собой слышимые 
искажения в сигнале. 
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Если соотношения (1) и (2) изначально справедливы для некоторого тональ- 
ного маскера исходного сигнала, в процессе маркировки не вносится никаких допол- 
нительных изменений. Но если при внедрении нулевого бита в исходном сигнале 
имеют А^(ЁЕ/,Ё,) > 1, то выполнения соотношения (1) добиваются следующим образом: 

Е =Ещ+Ы ЛЕ, =Ев -Ы, при Е >Е,; 

Е =Ей -Ц ЛЕ, =Ещ +Ц, при Е] < Е,. 
Аналогично, если при внедрении единичного бита имеют А(ЁЕ\,Е,„) < [2, то соотно- 
шение (2) обеспечивается так: 

Е =Ещ +22 ЛЕ, =Ещ -Г2, при Е} >Е,; 

Е] = Ещ -1[2 ЛЕ, = Ем + Го, при Е| < Е,. 

При таком подходе важно найти устойчивые тональные компоненты, которые 
будут однозначно идентифицироваться до и после искажений, внесенных обработкой 
аудиосигнала. В случае, когда в субполосе имеется несколько сильных тонов, близких 
по значению, для повышения надежности идентификации тона-носителя бита ЦВЗ 


допускается незначительное увеличение выбранного тона-носителя и/или незначи- 
тельное уменьшение близких тонов. 


Извлечение битов ЦВЗ 


Пусть И’ — бит ЦВЗ, носителем которого является тон с энергией ЁЕ,. Тогда его 
извлечение выполняется согласно следующим правилам: 
И’ =0, при К(Е\,Е.)< Ц; 
Й’ =1, при В(Е\, Е) > [2. 
В случае, если /1 < А(Ет,Е„) < [2: 
Й’ =0, при ((В(Ет,Е,„)-М)-Г3)/ [3 >1/2; 
Й’ =1, при ((К(Е\,Е,„)- Ц )-[3)/ [3 < 1/2. 
Схематически процесс внедрения-извлечения бита ЦВЗ можно проиллюстри- 
ровать так (рис. 3). 
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Рисунок 3 — Схема внедрения-извлечения одного бита ЦВЗ 
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Заключение 


Проблематика защиты информации актуальна всегда. ЦВЗ являются эффективной 
технологией защиты авторских прав на цифровые объекты, контроля копирования и рас- 
пространения данных. В данной статье изложено новое, перспективное направление 
исследований в области создания ЦВЗ для аудиосигналов. Оно перекликается с направ- 
лениями последних разработок в области сжатия звуковых и речевых сигналов, где так 
же, как и в стеганографии, актуально построение качественных моделей слухового вос- 
приятия. Сжатие с потерями направлено на устранение психоакустической и статисти- 
ческой избыточности сигнала. Задача создания ЦВЗ в целом тоньше, «ювелирнее» задачи 
сжатия с потерями. Внедрение ЦВЗ, как и применение алгоритма сжатия, не должно 
ухудшать качество восприятия аудиосигнала. Вместе с тем в отличие от психоакусти- 
ческого сжатия, потери данных (содержимого ЦВЗ), в системе маркировки аудио крайне 
нежелательны, в том числе после сжатия маркированного сигнала и других его преобра- 
зований. Таким образом, для целей стеганографии очень актуально усовершенствование 
существующих психоакустических моделей и средств их представления. И один из путей 
такого усовершенствования — использование вейвлет-пакетов. 

Психоакустическая модель в данном случае строится для выделения тональных 
маскеров, целенаправленным формированием которых кодируется битовая последова- 
тельность ЦВЗ. 
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№.У. Козйкта 
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